查看原文
其他

2021地理设计组一等奖:融合短视频和深度学习的城市空间意象解构与分析

M姐 M姐实验室
2024-09-04

作品编号:B246(一等奖)
作品名称:融合短视频和深度学习的城市空间意象解构与分析
作者单位:深圳大学建筑与城市规划学院
小组成员:陈夏娜,黎诗诗,余俊娴,朱颖颖
指导老师:涂伟,夏吉喆


作品视频





作品简介


一、应用背景与目标城市是自然、构筑物及人构成的复杂动态综合体。城市空间意象是人们感受到的城市空间表达,也是人们对城市的直接或间接的经验性的空间认识。解构城市空间意象[1]作为城市空间认知研究中的重要内容,使得“可读性”、“可意象性”成为理想城市的标志[2],对增加城市特色、塑造城市形象、营销城市定位具有非常重要的作用。传统的城市空间意象认知方法一般通过调查访谈进行,实地走访城市中的典型居住区、街道、公园等,通过人工经验形成城市空间意象。这些方法劳动强度大,耗费时间长。近年来,城市意向研究方法已从最初的认知地图法拓展至与卫星遥感影像、街景影像等新型数据相结合,弥补了传统城市意向研究中调研手法单一、数据获取困难等不足。随着互联网的发展,抖音、快手等短视频平台快速崛起,短视频正在成为一种新的数据源[2]。据统计,2020年我国短视频用户数量超过9.2亿,日均短视频观看时间超过1小时(中国互联网络发展状况统计报告,2020)。短视频内容从个人生活、城市地标到城市全景,十分广泛,它是人们城市体验的视觉记录,能够更直观地反映出人对于城市环境的感知意向[3],为解构并分析城市空间意象提供了新机会。针对不断增长的短视频内容,我们提出融合短视频和深度学习,智能解构城市空间意象。具体地,通过移动互联网抓取短视频,构建城市视频库。利用深度学习进行短视频视频语义分割,解译短视频中城市物质环境组成(包括天空、建筑、交通、桥、水、山、植被、其它共8类),利用统计分析方法解构城市空间意象。研究成果不断能够获取地标级和城市级的空间意象,辅助进行城市定位,强化城市特性等,支撑城市做好顶层设计,而且可以得出利于城市推广和宣传的视频拍摄方式,对城市形象在航拍视频方面的宣传推广有重要意义。


二、设计思想抖音、快手等短视频平台提供了新的数字内容,为理解城市空间意象、传播城市品质形象提供了新途径。本次的设计理念是融合短视频和深度学习,进行短视频空间语义分割与识别,通过统计学习感知城市空间意象。研究成果创新地定量化解构城市空间形象,为城市研究与城市形象推广提供新方法。


2.1. 设计思路

图1 设计思路


2.2. 设计创新

(1)新的城市空间意象认识数据源。传统城市空间意向认知方法局限于实地访谈、地图或者遥感影像,本次作品利用新的短视频来解构城市空间意象。

(2)新的城市空间意象认知方法。传统城市空间意象认知方法依赖于人工经验,本次作品利用GeoScene和Arcgis Pro中创新的深度学习工具认知城市空间,原理简单且操作易行。

(3)地理信息和人工智能的交叉融合。利用深度学习工具识别天空、建筑、交通、桥、水、山、植被、其它等8类要素,通过聚类分析定量结构城市意向,实现了短视频、深度学习与城市意象研究的交叉融合。





三、主要功能本次作品主要功能包括短视频筛选与下载、短视频深度学习语义分割和空间意象统计学习。

3.1 抖音短视频筛选与下载

(1)短视频搜索。针对重庆、西安、广州、武汉等十个城市,通过城市关键字,搜索抖音平台上的短视频。

(2)短视频下载。利用Python中网络爬虫技术实现自动抓取和下载所需城市的抖音短视频,并根据不同城市汇总下载的视频到创建的中国城市视频库文件夹中,共下载视频496个。

(3)短视频分帧。使用Python+Opencv代码进行短视频定时分帧,每3秒生成一张图片,并存放在该城市的图片文件夹下。


3.2 短视频深度学习语义分割 

在ArcGIS中标注语义样本样本,使用训练深度学习模型工具训练模型。利用训练后的模型对短视频进行语义分割与识别,获取天空、建筑、水等8类空间语义,生成空间视觉描述数据。

(1)视频图像标注与追加。使用Arcgis Pro-GeoScene标注对象以供深度学习窗口标注短视频图片的空间语义,包括天空、建筑、交通、桥、水、山、植被、其它等8类要素,并利用Export Training Data For Deep Learning将多个标注文件追加成一个训练集。

(2)深度学习模型训练。使用Arcgis Pro的Train Deep Learning Model工具,利用标注集,训练U-Net-Pixel classification模型。

图2 深度学习模型拆解示意图


     利用ArcGIS API for Python的API接口,加载测试集数据,查看模型量化指标precision、recall以及f1_score,评估学习模型的精度,如图所示:

图3 深度学习模型精度评估


(3)短视频语义分割与识别。利用训练后的深度学习模型,输入的短视频图像,识别为天空、建筑、交通、桥、水、山、植物、其他8类要素,获得每一类空间语义的分布。

(4)图像空间语义统计。利用Model Building,串联Raster to Ploygon、add geometry attributes,calculate geometry attribute等工具,量化计算各个类别的面积、周长以及质心的坐标,并输出以每张视频图片的空间语义。

图4 空间语义要素属性计算


3.3. 空间意象统计学习

(1)城市空间意象统计学习。基于3.2训练的模型识别城市中所有短视频图像,输出城市级空间语义数据表,计算各类语义面积均值,利用SPSS的层次聚类分析法,归纳城市空间意象。

(2)地标空间意象统计学习。基于3.2训练的模型识别地标短视频,输出地标级空间语义数据表,计算各类语义面积均值,,利用SPSS软件中K-means聚类分析法,获得地标空间意象。

(3)空间语义组成分析。基于地标短视频的分类结果,选取连续分帧的短视频图像,绘制各类要素面积变化和质心坐标的移动情况,量化分析视觉感受的空间变化。





四、结果分析与成果展示融合短视频和深度学习,识别短视频中的空间元素,解构城市空间意象,描述城市以及典型地标的空间意象,分析短视频中的空间语义组成转化。

4.1 城市空间意象分析

利用各类语义的面积数据,由层次聚类分析法将所研究的抖音网红城市分为三类:山之邑、江之城和绿厦之都。为直观显示主导意象,计算空间语义相对于均值的偏差,比较各类语义的视觉感受,绘制雷达图,如图5。表1给出了各空间语义类别的图像面积均值。第一类是山之邑。该类城市短视频中山的视觉感觉比所有短视频高2.4倍,桥的视觉感受比所有短视频高0.6倍。该类的代表是重庆市,其依山而建,临崖而筑,以江为池,建筑错落有致。相应地,山地面积为6.2万平方千米,有超过13000座桥,是中国的桥都。第二类是江之城。这类城市水和天空的视觉感知最强。这类城市短视频中水占比14.7%,高于均值1.8倍。该类代表城市包括长沙、武汉和上海,为湘江或长江穿城而过的城市,襟江带河,具有独特的地理位置优势。第三类是绿厦之都。该类城市绿地感知和建筑感知最明显,包括南宁、深圳、北京、广州、西安和成都。该类城市自然环境优美、城市功能完善、建筑型态丰富。成都开创了“天府绿道”,北京、西安历史建筑丰富,“绿城”南宁满城皆绿,四季常青,“花城”广州四季花卉常开,深圳人均公园绿地面积近16平方米

图5 城市级的视觉感受度

表1 空间语义层次聚类结果表(单位:pt)


4.2 地标空间意象分析

利用k-means聚类方法,依据天空、建筑、交通、桥、水、山、植被、其它等要素的面积,将城市地标分为4类。

表2 地标空间语义K-means聚类结果表(单位pt)


第一类为“天意山光”,这类地标拥有极高的天空开阔度,一般是在远离拥挤的市中心,在地势较高拥有更开阔更亲近自然的视角的地方。这类地标短视频中天空占比高达33%,山和植物的总占比也高达33%,均显著高于均值。  第二类为“钢铁匠心”,这类地标视频中建筑的占比达到52%,高于均值0.86倍,这类视频中既有深圳湾建筑群,也有能唤起城市记忆的单个建筑比如广州塔。包含着公众对于城市的认知和感受,极大地塑造了地标的空间意象。第三类为“车行廊道”。这类地标交通和植被的视觉的感受度最大,远超平均值。其它各类的指标的偏度都在均值以下。这类地标随着道路的延伸以及绿化带的移动,给人一种全新的视角来感知城市。第四类为 "虹梁跨水",这类地标短视频中桥的占比较多,水与桥相比不会过少,且其它要素存在其中,说明桥和周围人文、自然环境融为一体,与城市公共空间和城市景观环境

图 6 地标级的视觉感受度

 

4.3 空间语义组成变化分析

通过序列图像中空间语义的面积及质心的变化,可以发现短视频如何让人感受地标的空间意象。以“天意山光”地标为例,图7(a)给出了面积变化,从第1帧到第4帧,天空面积占比逐渐减少,水的面积占比逐渐升高,第4帧到第6帧天空面积占比增大,水的面积占比减小,镜头从水面低飞且拉近镜头,便于拍摄到水边的城市和建筑,然后抬升镜头。以“虹梁跨水”地标为例,图7(b)从语义的质心看,第1帧到第3帧图像范围内的质心上移,体现山势陡峭,第5帧到第6帧的质心下移的时候飞行贴近山壁。

图7 空间语义的组成变化




五、总结和展望本项目的设计理念是融合短视频和深度学习,进行短视频空间语义分割与识别,通过统计学习感知城市级、地标级的空间意象。研究成果创新地定量化解构城市空间形象,可为短视频等新型数据风靡环境下的城市意象研究提供新思路。目前该作品受限于样本量,未来研究可考虑结合更多其他数据,以实现更高质、高量、高速的数据处理,提高城市意象分析结果的精度。

参考文献

[1]Liu, L., et al., C-IMAGE: city cognitive mapping through geo-tagged photos. GeoJournal, 2016. 81(6).

[2] 杨子垒.感知与真实:城市意象与城市空间形态关系初步研究[D].重庆:重庆大学,2009.

[3] 张静.抖音短视频对西安城市形象建构与传播策略探析[D].河北:河北大学,2019.

[4] 刘祎绯,牟婷婷,郑红彬,等.基于视觉感知数据的历史地段城市意象研究——以北京老城什刹海滨水空间为例[J].规划师,2019(17):51-56.







相关文章01

2021地理设计组一等奖:基于Arcpy与综合指标法的地质灾害风险评价——以临安清凉峰为例

02

2021GIS应用开发组特等奖:“共享助力双碳”——新能源汽车动态运营与时空分析系统

03

2021GIS应用开发组一等奖:城市流动摊贩上报处理与管理调度系统

04

2021GIS应用开发组二等奖:“扶贫视界”及防返贫帮扶综合系统










M姐实验室关注GIS教育的一切




继续滑动看下一个
M姐实验室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存